AI产业链地图·知识库 Constitutional AI · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/Constitutional AI

更新 2026·06·17

概念技术 / 术语

Constitutional AI

CAI · 宪法AI · Constitutional Approach

Constitutional AI 是 Anthropic 在 2022 年论文 *Constitutional AI: Harmlessness from AI Feedback* 中提出的训练方法。核心思想：用一套书面"宪法原则"（如"不应有害"、"应当诚实"、"不应歧视"），让 AI 自我批评、自我修订输出，从而无需大量人工偏好标注就能实现安全对齐。

Constitutional AI CONCEPT · 概念

首次提出: 2022
关键参与方: [[Anthropic]]
反向引用: 10 处 · 来自 6 页

归属对齐AI安全LLM训练第四层

Constitutional AI（宪法 AI）

Anthropic 2022 年提出的 LLM 对齐方法，用一套原则（"宪法"）替代纯 RLHF 的偏好标注，规模化可扩展的对齐范式。

定义

Constitutional AI 是 Anthropic 在 2022 年论文 Constitutional AI: Harmlessness from AI Feedback 中提出的训练方法。核心思想：用一套书面"宪法原则"（如"不应有害"、"应当诚实"、"不应歧视"），让 AI 自我批评、自我修订输出，从而无需大量人工偏好标注就能实现安全对齐。

技术细节

两阶段训练：

监督学习阶段（SL-CAI）：
- 模型生成回复 → 模型基于"宪法"自我批评 → 模型自我修订
- 用修订后的回复做监督微调
强化学习阶段（RL-CAI / RLAIF）：
- 模型对比两个回复 → 基于"宪法"选哪个更符合原则
- 训练奖励模型 → 用 PPO 强化学习

与传统 RLHF 相比，Constitutional AI 的关键差异是 AI Feedback 替代 Human Feedback——奖励信号来自 AI 自评而非人工标注。

主要玩家

Anthropic — 方法原创者，Claude 全系列模型基于此训练
行业内多家模型厂效仿（修改版）

在 AI 产业链中的角色

Constitutional AI 是 4-03 子行业模型安全/对齐细分的核心方法论之一，与 RLHF / DPO 并列。它的最大价值在于解决了"人工标注成本与规模化对齐"的矛盾，让对齐过程可大规模并行化。

演进历史

2022-12 Anthropic 论文 Constitutional AI 发布
2023 Claude 2 系列模型基于此训练
2024-2025 行业其他模型厂引入类似方法

相关概念

RLHF / DPO（其他对齐方法）
Anthropic / Claude
红队测试（验证对齐效果）

∈ belongs_to::4-03-模型生态与工具链

反向引用链接到本页

反向引用 10

按引用量 ↓

… - **[[OpenAI]]** — RLHF 商业化先驱（InstructGPT / ChatGPT） - **[[Anthropic]]** — 在 RLHF 基础上演化出 Constitutional AI（用 AI Feedback 替代 Human Feedback） - **开源生态** — Llama / Qwen / DeepSeek 等都用 RLHF 或 DPO …

… - **开源生态** — Llama / Qwen / DeepSeek 等都用 RLHF 或 DPO ## 在 AI 产业链中的角色 RLHF 是当前 LLM 对齐的"行业标准"，但人工标注成本高、规模化受限是其瓶颈。Constitutional AI / [[DPO]] / RLAIF 等都是为应对其局限演化出的新方法。 ## 演进历史 - **2017** Christiano et al. 论文《Deep Reinforcement Learning from Human Pr …

… - **2022** [[OpenAI]] InstructGPT 论文，RLHF 走向工业化 - **2022-12** ChatGPT 发布，RLHF 走入大众视野 - **2023** [[DPO]] / Constitutional AI 等改进方法涌现 - **2024-25** RLAIF（AI 反馈）逐渐替代部分 RLHF ## 相关概念 - [[Constitutional AI]] / [[DPO]]（衍生 / 替代方法） …

… 还有 1 处提及

查看原文 →

… - [[Dify]] / [[Coze]] / [[FastGPT]] — 低代码平台替代者（详见中国玩家） ### 模型安全 / 对齐（萌芽期） - [[Anthropic]] — Constitutional AI 原创，估值 $1800 亿 - [[Google]] DeepMind CART — 红队测试标杆（150+ 项） - [[Robust Intelligence]] — 被 [[Cisco]] 收购（2024-08） …

… nt 编排**：[[Function Calling]] / [[Tool Use]] / [[ReAct]] / [[多Agent协作]] / 状态记忆 / 工作流引擎 5. **安全与对齐**：[[RLHF]] / [[DPO]] / Constitutional AI / [[红队测试]] / [[Prompt 注入防护]] / [[Guardrails]] / [[AI 防火墙]] ## 上下游关系 ↑ up::[[4-02-模型工厂]] — 基础模型训练，是工具链的"原材料" …

查看原文 →

… Anthropic 不仅是基础模型厂商（4-02），还是 AI 安全研究与对齐方法论的全球引领者，在 4-03 子行业中扮演 **"对齐范式制定者"** 角色： - **Constitutional AI 原创**：用一套原则（"宪法"）替代纯 [[RLHF]] 的偏好标注，大规模可扩展对齐方法，已被多家模型厂效仿 - **"安全优先"品牌**：成为高合规行业（金融 / 医疗 / 法律）首选模型供应商，与 [[OpenAI]] 形成清晰差异 …

查看原文 →

… 发布的大模型产品线，目前最新为 **Claude 4 系列**（Opus / Sonnet / Haiku 三档），主打长上下文（200K+ tokens）、Agent 编排（Claude Code、Computer Use）和宪法 AI（Constitutional AI）对齐方法。 - **主要版本**：Claude 1 → 2 → 2.1 → 3 (Opus/Sonnet/Haiku) → 3.5 → 4 - **差异化**：上下文最长（1M tokens beta）、代码生成质量第一档、Agent …

查看原文 →

… - **2024** 开源生态全面采纳，PPO 逐渐让位 - **2024-25** SimPO / KTO / IPO 等 DPO 衍生方法涌现 ## 相关概念 - [[RLHF]]（被替代的前辈） - Constitutional AI（不同思路的对齐方法） ∈ belongs_to::[[4-03-模型生态与工具链]] …

查看原文 →

… 蚂蚁集团在 4-03 子行业中扮演 **"金融级 AI 安全研究 + 可信 AI 实践"** 角色，是中国 AI 安全与可信 AI 研究的重要参与者，与 [[Anthropic]] Constitutional AI 路线形成中国对照。 ## 与 AI 产业链关系 ↑ up::[[阿里云]] [[NVIDIA]] ↓ down::[[5-09-AI金融-量化交易]] [[5-04-智慧医疗]] …

查看原文 →